\chapter{时间序列阅读笔记Martin}
	\section{The Maximum Likelihood Principle}
	\subsection{引言}
	极大似然估计的一个关键概念就是可观测随机变量$ y_t $的联合概率密度函数。要进行极大似然估计需要以下三个条件：
\begin{enumerate}
\item $ y_t $的联合概率密度形式已知；
\item 联合概率密度矩的设定是已知的；
\item 对于任意参数$ \theta $，联合概率密度是可以计算的。
\end{enumerate}
	
	有时一些模型并不满足上述条件，我们会重点考察以下四种情况：
	\begin{itemize}
		\item 若分布误设，则进行拟极大似然估计（chapter 9）；
		\item 若条件1不被满足,则进行广义矩估计（chapter 10）；
		\item 若条件2不被满足，进行非参估计（chapter 11）；
		\item 若条件3不被满足，则进行模拟估计（chapter 12）；
	\end{itemize}

下面看几个具体的计算例子。
\subsection{Example}
\paragraph{时常模型}
\[ y_t=\sigma z_t \]

其中$ z_t \sim N(0,1)$是扰动项$ \sigma $是参数。那么易知，
\[ f(z)=\frac{1}{\sqrt{2\pi}}exp(-\frac{z^2}{2}) \]

根据附录内容，这种单调映射可以很快得到，
\begin{align*}
 f(y;\theta) &= f(z)\left|\frac{\partial z}{\partial y}\right|\\
 &= \frac{1}{\sqrt{2\pi}}exp(-\frac{(y/\sigma)^2}{2})\left|\frac{1}{\sigma}\right|\\
 &= \frac{1}{\sqrt{2\pi\sigma^2}}exp\left[-\frac{y^2}{2\sigma^2}\right]
\end{align*}

可以看到$f(y) $不依赖于$ y_{t-i} $，而且任何时期的$ y $都具有相同的分布，这两个性质简称为i.i.d.。
\paragraph{线性回归}
\[ y_t=\beta x_t +\sigma z_t \qquad z_t\sim i.i.d. N(0,1)\]

其中$ x_t $是独立于$ z_t $的自变量，$ \theta = \{\beta,\sigma^2\}$。那么基于$ x_t $的$ y_t $的条件分布为，
\[ f(y_t|x_t;\theta)= \frac{1}{\sqrt{2\pi \sigma^2}}\exp\left[-\frac{(y_t-\beta x_t)^2}{2\sigma^2}\right] \]

\paragraph{自回归}
\[ y_t=\rho y_{t-1}+u_t,\qquad u_t\sim i.i.d. N(0,\sigma_t) \]

其中$ |\rho|<1,\theta =\{\rho,\sigma^2\} $。条件概率密度函数为，
\[ f(y_t|y_{t-1};\theta)= \frac{1}{2\pi \sigma^2}\exp\left[-\frac{(y_t-\rho y_{t-1})^2}{2\sigma^2}\right] \]
\paragraph{有异方差的自回归}
\begin{align*}
y_t&=\rho y_{t-1}+\sigma_tz_t\\
\sigma_t^2 &=  \alpha_0+\alpha_1w_t\\
z_t&\sim i.i.d. \quad N(0,1)
\end{align*}

其中$ \theta =\{\rho ,\alpha_0,\alpha_1\},w_t $是解释变量。条件于$ y_{t-1} \text{和}w_t $的$ y_t $的条件分布为，
\[ f(y_t|y_{t-1},w_t;\theta)= \frac{1}{2\pi \sigma^2_t}\exp\left[-\frac{(y_t-\rho y_{t-1})^2}{2\sigma_t^2}\right] \]


\subsection{联合概率密度分布}
对于$ T $个观测值联合概率密度函数可以写为，
\begin{equation}\label{MLP1}
 f(y_1,\cdots,y_T,x_1,\cdots,x_T)=f(y_1,\cdots,y_T|x_t,\cdots,x_T;\psi)\times f(x_1,\cdots,x_T;\psi)
\end{equation}
 

进一步地，若把参数分解为$ \{\theta,\theta_x\} $，那么上式可以进一步写为，
\begin{equation}\label{MLP2}
 f(y_1,\cdots,y_T,x_1,\cdots,x_T)=f(y_1,\cdots,y_T|x_t,\cdots,x_T;\theta)\times f(x_1,\cdots,x_T;\theta_x) 
\end{equation}


这种写法，可以只基于第一项的条件概率分布函数估计$ \theta $而没有信息损失。另外，通过施加在一些约束下，条件概率密度函数可以迅速简化。

\paragraph{i.i.d.}
\begin{itemize}
	\item 最简单的情况：$ \{y_1,\cdots,y_T\} $独立于$ \{x_1,\cdots,x_T\} $,同时$ y_t $是i.i.d.，那么\eqref{MLP2}式中的条件概率分布函数可以写为，
	\[ f(y_1,\cdots,y_T|x_t,\cdots,x_T:\theta)= \prod_{t=1}^T f(y_t;\theta) \]
	\item $ y_t,x_t $是i.i.d.的，同时$ y_t $依赖于$x_t$，那么，
		\[ f(y_1,\cdots,y_T|x_t,\cdots,x_T:\theta)= \prod_{t=1}^T f(y_t|x_t;\theta) \]
\end{itemize}

\paragraph{Depentdent}
\begin{itemize}
	\item 若假设$ \{y_t,\cdots,y_T\} $依赖于滞后值，但\textbf{独立}于$ \{x_1,\cdots,x_T\} $。那么可以发现，
	\begin{align*}
	f(y_1;\theta)&=f(y_1;\theta)\\
	f(y_1,y_2;\theta)&=f(y_2|y_1;\theta)f(y_1;\theta)\\
	f(y_1,y_2,y_3;\theta)&=f(y_3|y_2,y_1;\theta)f(y_2|y_1;\theta)f(y_1;\theta)\\
	\vdots
	\end{align*}
	
	上式可以简写为，
	\[ f(y_1,\cdots,y_T;\theta)=f(y_1;\theta)\prod_{_{t=2}}^{T}f(y_t|y_{t-1},y_{t-2},\cdots,y_1;\theta) \]
	
	
	\item 若假设$ \{y_t,\cdots,y_T\} $依赖于滞后值，也\textbf{依赖}于$ \{x_1,\cdots,x_T\} $。那么，
	\begin{equation}\label{MLP3}
	 f(y_1,\cdots,y_T|x_1,\cdots,x_T;\theta)=f(y_1|x_1;\theta)\prod_{_{t=2}}^{T}f(y_t|y_{t-1},y_{t-2},\cdots,y_1x_t,x_{t-1},\cdots,x_1;\theta)
	\end{equation}
	 
\end{itemize}

\subsection{Maximum Likelihood Framework}
\subsubsection{对数似然函数}
\eqref{MLP3}式写成对数更加方便，对数似然定义为，
\[ \ln L_T(\theta)=\frac{1}{T}\ln f(y_t|x_1;\theta)+\frac{1}{T}\sum_{t=2}^{T}\ln f(y_t|y_{t-1},\cdots,y_1,x_t,\cdots,x_1;\theta) \]

对数似然函数一般都是标量。一般情况下$ \theta $的估计可以通过标准的微积分得到，否则就将使用数值方法。

\subsubsection{梯度}
对数似然对$ K $个参数一阶求导，可以得到一个$ K\times 1 $的梯度向量，或者得分向量，
\[ G_T(\theta)=\frac{\partial \ln L_T(\theta)}{\partial \theta} = \begin{bmatrix}
\frac{\partial \ln L_T(\theta)}{\partial \theta_1}\\
\frac{\partial \ln L_T(\theta)}{\partial \theta_2}\\
\vdots\\
\frac{\partial \ln L_T(\theta)}{\partial \theta_K}
\end{bmatrix}= \frac{1}{T}\sum_{t=1}^Tg_t(\theta) \]

大写的脚标$ T $表达的单个观测$ g_t(\theta)=\frac{\partial \ln l_t(\theta)}{\partial \theta} $的样本平均。
\subsubsection{Hession}
海塞矩阵是一个$ (K\times K) $的对称矩阵，
\[ H_T(\theta)=\begin{bmatrix}
\frac{\partial^2\ln L_T(\theta)}{\partial \theta_1\partial\theta_1} & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_1\partial\theta_2} & \cdots & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_1\partial\theta_K}\\
\frac{\partial^2\ln L_T(\theta)}{\partial \theta_2\partial\theta_1} & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_2\partial\theta_2} & \cdots & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_2\partial\theta_K}\\
\vdots & vdots & \vdots & \vdots \\
\frac{\partial^2\ln L_T(\theta)}{\partial \theta_K\partial\theta_1} & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_K\partial\theta_2} & \cdots & \frac{\partial^2\ln L_T(\theta)}{\partial \theta_K\partial\theta_K}
\end{bmatrix}=\frac{1}{T}\sum_{t=1}^{T}h_t(\theta) \]

最大化的二阶条件要求Hessian矩阵负定，即，
\[ |H_{11}|<0,\left|\begin{matrix}
H_{11} & H_{12}\\H_{21}&H_{22}
\end{matrix}\right|>0, \left|\begin{matrix}
H_{11} & H_{12} & H_{13}\\H_{21}&H_{22}&H_{23}\\H_{31}&H_{32}& H_{33}
\end{matrix}\right|<0,\cdots\]
\subsection{附录}
若$ X $是一个连续随机变量，且概率密度函数为$ f(x) $。定义$ Y=g(X) $，$ g $是单调一对一的映射，因此逆函数存在。那么$ Y $的概率密度函数为，
\[ h(y)= f(g^{-1}(y))\left|\frac{dg^{-1}(y)}{dy}\right|=f(x)\left|\frac{dx}{dy}\right| \]

其中$ dx/dy $就是熟知的雅可比变换。

\section{极大似然估计的性质}
在一些正则条件下，极大似然估计拥有良好的统计性质。大样本下，极大似然估计是一致的，有效的，正态分布的。小样本下满足常方差时，是充分统计量函数，某些情况下，是无偏且unique的。
\subsection{预备}
在阐述极大似然估计的性质前，先预备四项知识：
\begin{itemize}
	\item 一些常用的时序模型，并谈谈它们的性质；
	\item 大数定律；
	\item 尺度因子对随机变量收敛的确保；
	\item 中心极限定理；
\end{itemize}

\subsubsection{时序模型及其性质}
\paragraph{平稳}
\begin{itemize}
	\item 弱平稳。
	\item 严格平稳。
\end{itemize}

\paragraph{鞅差分序列}
\paragraph{白噪声}
满足如下性质就是白噪声,
\begin{align*}
 E[y_t]&=0\\
  E[y_t^2]&=\sigma^2<\infty \\
   E[y_ty_{t-k}]&=0,\qquad k>0
\end{align*}
 \subsubsection{弱大数定律}
\subsubsection{收敛的速度}
考虑一个线性回归模型，
\[y_t=\beta x_t+u_t,\qquad u_t\sim i.i.d. N(0,\sigma_u^2)\]

其中$ x_t $是i.i.d.的，来自于$ (-0.5,0.5) $的均匀分布，方差为$ \sigma_x^2,x_t $与$ u_t $独立，即有$ E[x_tu_t]=0 $。那么关于$ \beta $的极大似然估计为，
\[ \hat\beta = \left[\sum_{t=1}^{T}x_t^2\right]^{-1}\sum_{t=1}^{T}x_ty_t=\beta+\left[\sum_{t=1}^{T}x_t^2\right]^{-1}\sum_{t=1}^{T}x_tu_t \]

这里，我们要考虑的矩是$ \sum_{t=1}^{T}x_tu_t $和$\sum_{t=1}^{T}x_t^2 $。对于$ \sum_{t=1}^{T}x_tu_t $，要确保其有一个非退化分布，必须对于任意的$ k $有，
\begin{align*}
E[T^{-k}\sum_{t=1}^{T}x_tu_t] &=0\\
var(T^{-k} \sum_{t=1}^{T}x_tu_t ) &= T^{-2k}var( \sum_{t=1}^{T}x_tu_t )=T^{1-2k}\sigma_u^2\sigma_x^2
\end{align*}

可见只有$ k=1/2 $才能阻止方差为0.

\subsubsection{中心极限定理}
\subsection{正则条件}
\subsection{似然函数的性质}
\paragraph{梯度的矩}
梯度的一阶矩：
\[ E(g_t(\theta)) = 0 \]

梯度的二阶矩：
\[ cov(g_t(\theta)) = E[g_t(\theta)g_t(\theta)'] = -E[h_t(\theta)]\]

第二个等号的证明见P59. 这个性质把梯度和海塞矩阵联系起来了。梯度和海塞矩阵的关系可以进一步紧凑地写成，
\begin{align*}
J(\theta) &= E[g_t(\theta)g_t(\theta)']\\
H(\theta) &= E[h_t(\theta)]\\
J(\theta) &= -H(\theta)
\end{align*}
\paragraph{信息矩阵}
通常地，$ J(\theta) $也写作信息矩阵$ I(\theta) $。从而有，
\[ I(\theta)= J(\theta) = -H(\theta) \]
\subsection{渐近性质}
极大似然估计值的的渐近分布为，
\[ \sqrt{T}(\hat\theta-\theta)\underrightarrow{d}N(0,I^{-1}(\theta)) \]

证明见P67。
\section{数值优化}
\subsection{计算标准误}
根据极大似然估计的渐近性质，标准误的计算依赖于信息矩阵的逆$ I^{-1}(\theta) $。很多情况下，信息矩阵不容易计算，很多时候使用海塞矩阵的逆的负数来计算$ I^{-1}(\theta) $。或者使用梯度矩阵的外积的逆$ J^{-1}(\hat\theta) $。

一个标准误的计算例子：
\begin{align*}
\text{Hessian:}\hspace{2em} &se(\hat\theta) = \sqrt{-\frac{1}{T}H_T^{-1}(\hat\theta)}\\
\text{Information:}\hspace{2em} &se(\hat\theta) = \sqrt{\frac{1}{T}I_T^{-1}(\hat\theta)}\\
\text{Ounter Product:}\hspace{2em} &se(\hat\theta) = \sqrt{\frac{1}{T}J_T^{-1}(\hat\theta)}\\
\end{align*}
\paragraph{极大似然估计非线性函数的方程协方差矩阵计算}
存在两种方式，一种是替代法，一种是德尔塔法。

\subsection{实践上的建议}
\paragraph{集中似然}
当然参数的维度较大，如果一个参数可以表达成另一个参数的函数，那么维度就可以缩减，这实际上就是集中似然。例如一个似然函数包含两组参数$ \theta =\{\theta_1,\theta_2 \} $，其中$ \theta_1 $包含$ K_1 $个参数，$ \theta_2 $包含$ K_2 $个参数。似然函数的一阶条件就可以写成，
\[\left. \frac{\partial \ln L_T(\theta)}{\partial \theta_1}\right|_{\theta = \hat\theta}=0,\hspace{4em}\left. \frac{\partial \ln L_T(\theta)}{\partial \theta_2}\right|_{\theta = \hat\theta}=0 \]

这是一个包含$ K_1+K_2 $个参数的具有$ K_1+K_2 $个方程的非线性方程组。如果可以找到这样一个关系式，
\[ \theta_1 = g(\theta_2) \]

那么，实际上，我们只需要得到$ \theta_1 $的收敛值，将它代入就可以得到$ \theta_2 $的极大似然估计值。这是因为极大似然估计具备不变性(invariance)。所谓不变性指的是如果$ \hat\theta $是$ \theta $的极大似然估计，那么对于任何非线性函数$ \tau(\cdot) $，$ \tau(\theta) $的极大似然估计值为$ \tau(\hat\theta) $。
\paragraph{参数约束}


	\section{Latent Factor Models}
卡尔曼滤波就是一个包含两个方程的方程组，他要做的就是捕捉一个观测变量和一个不可观测变量之间的关系。
	\subsection{最简单的单变量情形}
先来看最简单情况，一个可观测因变量，一个不可观测因子，我们按照如下方式为它们的关系进行模型设置，
	\begin{align}\label{LFM1}
	y_t & =  \lambda s_t+ u_t,\hspace{2em}	u_t\sim N(0,\sigma^2)\\\label{LFM2}
	s_t &= \phi s_{t-1} +\eta_t,\hspace{2em} 	\eta_t\sim N(0,\sigma_{\eta}^2) 
	\end{align}
	这两个方程的误差项都是正态分布，且不相关，即$ E(u_t\eta_t)=0$，先假设回归系数$ \lambda,\phi$和误差的方差$ \sigma^2,\sigma_{\eta}^2 $是已知参数。第一个方程以线性回归的方式捕捉了不可观测变量$ s $和可观测变量$ y $间的关系。第二个方程表明不可观测变量以AR(1)的方式进行演进。要缕清这个系统是如何工作的，我们可以分四步来阐述。
\subsubsection{第一步：预测不可观测变量$ s $的均值和方差}
考虑如何从$ t-1 $期信息预测$ s_t $的均值。这一点可以根据\eqref{LFM2}式迅速得到，
	\begin{equation}\label{LFM5}
	\begin{split}
	s_{t|t-1} & = E_{t-1}[s_t]\\
	& = E_{t-1}[\phi s_{t-1}+\eta_t]\\
	& = \phi  E_{t-1}[s_{t-1}]\\
	& = \phi s_{t-1|t-1}
	\end{split}
	\end{equation}
	
	预测$ s_t $的条件方差。所谓条件，指的是以$ t-1 $期的信息为条件得到均值(即$ s_{t|t-1} $)，用这个均值来算方差，就是条件方差。这个条件方差可以写为，
	\begin{equation}\label{LFM6}
	\begin{split}
	 P_{t|t-1} & =E_{t-1}[(s_t-s_{t|t-1})^2]\\
	 & = E_{t-1}\{[\phi(s_{t-1}-s_{t-1|t-1})+\eta_t]^2\}\\
	 & = \phi ^2 E_{t-1}[(s_{t-1}-s_{t-1|t-1})^2]+E_{t-1}[\eta_t^2]\\
	 & = \phi^2P_{t-1|t-1}+\sigma_{\eta}^2
	\end{split}	
	\end{equation}
	 
第三个等号用到了期望的和等于和的期望。	从\eqref{LFM5}式和\eqref{LFM6}式来看，这一步预测的关键在于求值$ s_{t-1|t-1},P_{t-1|t-1} $。
	 
\subsubsection{第二步：预测可观测变量$ y $的均值和方差}
很显然，
	 \begin{equation}
	 \begin{split}
	 \mu_{t|t-1}& = E_{t-1}[y_t] = E_{t-1}[\lambda s_t+u_t]\\
	 & = \lambda E_{t-1}[s_t]\\
	 & = \lambda s_{t|t-1}
	 \end{split}
	 \end{equation}
	 
	 \textbf{以及$ y_t $的方差预报}。
	 \begin{equation}\label{LFM8}
	 \begin{split}
	 V_{t|t-1} & = E_{t-1}[(y_t-\mu_{t|t-1})^2]\\
	 & = E_{t-1}[(\lambda s_t+u_t-\lambda s_{t|t-1})^2]\\
	 & = \lambda^2 E_{t-1}[(s_t-s_{t|t-1})^2]+E_{t-1}[u_t^2]\\
	 & = \lambda^2 P_{t|t-1}+\sigma^2
	 \end{split}
	 \end{equation}
	 
\subsubsection{第三步：更新，以获得$ s,y $更高的预测精度}
	 \eqref{LFM5}式是根据$ t-1 $期信息来预测$ t $期的$ s $，实际上，由于$ t $期的观测$ y $是可行的，那么可以改进对$ t $期$s$的预测。\textbf{即我们接下来要搞定$ s_{t|t},P_{t|t} $}。考虑一个把$ s_t,y_t $的预测误差联系起来的回归方程，
	 \begin{equation}\label{LFM9}
	 s_t-s_{t|t-1} = \kappa (y_t-\mu_{t|t-1})+\zeta_t
	 \end{equation}
	 
	 对上式重新安排有，
	 \begin{align*}
	 s_t &=s_{t|t-1}+\kappa (y_t-\mu_{t|t-1})+\zeta_t\\
	 & = s_{t|t}+\zeta_t
	 \end{align*}
	 
	 其中我们定义了
	 \begin{equation}\label{key}
	 s_{t|t} = s_{t|t-1}+\kappa (y_t-\mu_{t|t-1})
	 \end{equation}
	 
	 该式意味着我们穷尽了$ t $期的信息最终得到的$ t $期$s$的预测。从\eqref{LFM9}式利用OLS可以得到，
	 \begin{equation}\label{LFM11}
	  \kappa = \frac{E_{t-1}[(s_t-s_{t|t-1})(y_t-\mu_{t|t-1})]}{E_{t-1}[(y_t-\mu_{t|t-1})^2]}
	 \end{equation}
	  
	 
	 根据\eqref{LFM8}式第二个等号用到的知识，\eqref{LFM11}式的分子可以写为\footnote{	 其中用到了$ P_{t|t-1} $的定义以及利用\eqref{LFM6}式第二个等号的知识，
	 	\begin{align*}
	 	E_{t-1}[(s_t-s_{t|t-1})u_t]& = E_{t-1}[(\phi(s_{t-1}-s_{t-1|t-1})+\eta_t)u_t]\\
	 	& =\phi (s_{t-1}-s_{t-1|t-1})E_{t-1}[u_t]+E_{t-1}[\eta_tu_t]\\
	 	& = 0
	 	\end{align*}
	 }，
	 \begin{equation}
	 \begin{split}
	 E_{t-1}[(s_t-s_{t|t-1})(y_t-\mu_{t|t-1})] & = E_{t-1}[(s_t-s_{t|t-1})(\lambda (s_t- s_{t|t-1})+u_t)]\\
	 & = \lambda E_{t-1}[(s_t-s_{t|t-1})^2]+E_{t-1}[(s_t-s_{t|t-1})u_t]\\
	 & = \lambda P_{t|t-1}
	 \end{split}
	 \end{equation}
	 
	 
	 于是，
	 \begin{equation}\label{key}
	 \kappa = \frac{\lambda P_{t|t-1}}{V_{t|t-1}}
	 \end{equation}
	 
	 上式是著名的\textbf{Kalman 增益}。因此，\eqref{LFM9}式就可以写为，
	 \begin{equation}\label{LFM14}
	 \begin{split}
	 s_{t|t} &= s_{t|t-1}+\frac{\lambda P_{t|t-1}}{V_{t|t-1}}(y_t-\mu_{t|t-1})\\
	 & = s_{t|t-1}+\frac{\lambda P_{t|t-1}}{V_{t|t-1}}(y_t-\lambda s_{t|t-1})
	 \end{split}	 
	 \end{equation}
	 
	 那么可以很容易理解到\textbf{$ P_{t|t} $的定义}应该为，
	 \[ P_{t|t} = E_{t-1}[(s_t-s_{t|t})^2] \]
	 
	 利用\eqref{LFM14}式，有，
	 \begin{align*}
	 P_{t|t} &= E_{t-1}\left[\left(s_t-s_{t|t-1}-\frac{\lambda P_{t|t-1}}{V_{t|t-1}}(y_t-\lambda s_{t|t-1})\right)^2\right]\\
	 & = E_{t-1}\left[(s_t-s_{t|t-1})^2+\left(\frac{\lambda P_{t|t-1}}{V_{t|t-1}}(y_t-\lambda s_{t|t-1})\right)^2-\frac{2\lambda P_{t|t-1} }{V_{t|t-1}}(s_t-s_{t|t-1})(y_t-\lambda s_{t|t-1})\right]\\
	 & = E_{t-1}\left[(s_t-s_{t|t-1})^2\right]+\left(\frac{\lambda P_{t|t-1}}{V_{t|t-1}}\right)^2E_{t-1}[(y_t-\lambda s_{t|t-1})^2]-\frac{2\lambda P_{t|t-1} }{V_{t|t-1}}E_{t-1}[(s_t-s_{t|t-1})(y_t-\lambda s_{t|t-1})]
	 \end{align*}
	 
	 再次注意到上式中的三个条件期望实际上就是，
	 \begin{align*}
	 E_{t-1}\left[(s_t-s_{t|t-1})^2\right]=P_{t|t-1}\\
	 E_{t-1}[(y_t-\lambda s_{t|t-1})^2] = V_{t|t-1}\\
	 E_{t-1}[(s_t-s_{t|t-1})(y_t-\lambda s_{t|t-1})] = \lambda P_{t|t-1}
	 \end{align*}
	 
	 于是，\begin{align*}
	 P_{t|t} & = P_{t|t-1}+\left(\frac{\lambda P_{t|t-1}}{V_{t|t-1}}\right)^2 V_{t|t-1}-\frac{2\lambda P_{t|t-1} }{V_{t|t-1}}\lambda P_{t|t-1}\\
	 & = P_{t|t-1}-\frac{\lambda^2 P^2_{t|t-1}}{V_{t|t-1}}
	 \end{align*}
	 
	 \subsubsection{第四步，迭代}
	 \textbf{现在使用$ t $期的信息来预测$ y_{t+1} $。}实际上因果链条可以表达如下，
	 \[ y_{t+1}\stackrel{\eqref{LFM1}\text{式}}{\Longleftarrow} s_{t+1|t} \stackrel{\eqref{LFM2}\text{式}}{\Longleftarrow} s_{t|t} \stackrel{\eqref{LFM14}\text{式}}{\Longleftarrow} s_{t|t-1}\]
	 
	 这就意味着通过可观测的$ y_t $以及不可观测的$s_t$，就可以导出$ y_{t+1} $。从这个因果链条可以看到，我们需要一个最初的值，即$ s_{1|0},P_{1|0} $。最简单的情况就是假设过程是平稳的，然后让$ s_{1|0} $等于\eqref{LFM2}式中的无条件矩。因此，
	 \begin{align*}
	 s_{1|0} &= 0\\
	 P_{1|0} &= \frac{1}{1-\phi^2}
	 \end{align*}
	 
	 这样，整个系统就可以逐步往前递推。
	 \subsection{往多变量的拓展}
	 $N$个变量$ K $个因子，模型为，
	 \begin{equation}\label{key}
	 \begin{split}
	 \bm{y}_t &= \bm{\Lambda s}_t +\bm{u}_t,\hspace{2em}	 \bm{u}_t \sim N(0,\bm{R})\\
	 \bm{s}_t &= \bm{\Phi s}_{t-1 } +  \bm{\eta}_t,\hspace{2em}\bm{\eta}_t\sim N(0,\bm{Q})
	 \end{split}
	 \end{equation}
	 
	 其中，$ \bm{y}_t=(y_{1t},\cdots,y_{Nt})',\bm{s}_t=(s_{1t},\cdots,s_{Kt})' $，$ E[\bm{u}_t\bm{u}'_t]=\bm{R},E(\bm{\eta}_t\bm{\eta}'_t)=\bm{Q} $。$ \bm{\Lambda} $是$ (N\times K),\bm{\Phi}  $是$ (K\times K),\bm{R} $是$ (N\times N),\bm{Q} $是$ (K\times K) $。
	 \begin{itemize}
	 	\item 第一步，状态变量均值和方差预测，
	 \begin{align*}
	 \bm{s}_{t|t-1} &= \bm{\Phi s}_{t-1|t-1}\\
	 \bm{P}_{t|t-1} & = \bm{\Phi P}_{t-1|t-1}\bm{\Phi}' +\bm{Q}
	 \end{align*}	
\item 第二步，观测变量均值和方差预测，
	 \begin{align*}
\bm{\mu}_{t|t-1} & = \bm{\Lambda s}_{t|t-1}\\
\bm{V}_{t|t-1} &= \bm{\Lambda P}_{t|t-1}\bm{\Lambda}'+R\\
u_{t|t-1} &= y_t-\mu_{t|t-1}
\end{align*}
	 \end{itemize}
 	 
	 \paragraph{Updating}
	 \begin{align*}
	 s_{t|t} &= s_{t|t-1} +P_{t|t-1}\Lambda'V_{t|t-1}(y_t-\mu_{t|t-1})\\
	 P_{t|t} &= P_{t|t} -P_{t|t-1}\Lambda 'V_{t|t-1}^{-1}\Lambda P_{t|t-1}
	 \end{align*}
	 
	 注意到Kalman 增益为，
	 \[ \mathcal{K}_t= P_{t|t-1}\Lambda ' V_{t|t-1}^{-1} \]
	 
	 \paragraph{Initialization}
	 \begin{align}
	 s_{1|0} &= 0\\\label{LFM18}
	 vec(P_{1|0}) &= (I_{K\times K}-(\Phi \otimes \Phi))^{-1}vec(Q)
	 \end{align}
	 
	 \subsection{Extension}
	 \subsubsection{加入截距项}
	 这不会带来更多的困难。
	 \begin{align*}
	 y_t &= \lambda_0+\lambda s_t+u_t\\
	 s_t &= \phi_0 + \phi s_{t-1} +\eta_t
	 \end{align*}
	 
	 \subsubsection{Dynamics}
	 
	 \subsubsection{因子不平稳}
	 前面都假设$ s_t $是平稳的，不平稳时由于$ \Phi $的根落在单位圆上，导致\eqref{LFM18}式中方差初值无法定义，为回避该问题，初值采取如下形式，
	 \begin{align}
	 s_{1|0} &= \psi\\
	 P_{1|0} &= \omega vec(Q)
	 \end{align}
	 
	 $ \psi $表示对条件均值的一个最好猜测。$ \omega $是一个正数：
	 \begin{itemize}
	 	\item 大的$ \omega $意味着$ s_t $方差较大，是发散过程；
	 	\item 可以把$ \omega $看作是$ s_t $不平稳时的一个控制精度的东西；
	 	\item 可以观察到$ \omega = 0 $时，初值的初始分布就退化了，其概率质量落在$ \psi $。
	 \end{itemize}
	 
	 Bai and Ng(2004)提出了一个如下因子模型捕捉面板中的非平稳性。
	 \begin{align*}
	 y_{it} &= \lambda_{0i} + \lambda_i s_t + u_{it}\\
	 s_t &= s_{t-1} + \eta_t\\
	 u_{it} &\sim N(0,\sigma_i^2), \quad \eta_t\sim N(0,1)
	 \end{align*}
	 
	 \subsubsection{外生和前定变量}
	 
	 \subsection{因子提取}
在很多应用研究里面，都需要得到因子的估计并解释其时序特征。我们知道在每一期$ s_t $都有条件均值和条件方差，它们不过是我莫恩前述递归中的副产品而已。这些副产品总结起来如下：
\paragraph{Predicted}
	 \[ s_{t|t-1} =E_{t-1}[s_t] \]
	 \paragraph{Updated}
	 \[ s_{t|t} =  E_t[s_t] \]
	 \paragraph{Smoothed}
	 \[ s_{t|T} = E_T[s_t] \]
	 
	 唯一需要说明的是平滑，它是基于所有样本的条件矩。之所以称其为平滑估计，是因为它比$ E_{t-1}[s_t],E_t[s_t] $两个估计量更加平滑。平滑算子可以通过Kalman滤波的后向算法进行：即在前面阐述Kalman增益时，我们是将$ s_t$与$ s_{t|t-1} $联系起来，如果是将$s_t$，与$ s_{t|t+1} $联系起来，其他不变，这就是后向算法，可以得到基于$ t+1 $期对$ t $期的预测，即$ s_{t|t+1} $，同时$ s_{t|t+1}=s_{t|T} $（见Hamilton(1999)）。其具体公式为，
	 \begin{align*}
	 s_{t|T} &= s_{t|t} + J_t(s_{t+1|T}-s_{t+1|t})\\
	 P_{t|T} &= P_{t|t} + J_t(P_{t+1|T}-P_{t+1|t})J'_t
	 \end{align*}
	 
	 其中，\[ J_t= P_{t|t}\Phi'P_{t+1|t}^{-1} \]
	 \subsection{Estimation}
	 两种估计方法：
	 \begin{itemize}
	 	\item 对预测误差展开的极大似然估计；
	 	\item 一系列的OLS，该法避开了高维的数值优化问题；
	 \end{itemize}
	 在讨论估计问题前，先看看识别。	 
	 \subsubsection{Identification}
	 我们看到$ s_t $的波动由$ Q $控制，$ s_t $对$ y_t $的影响由$ \Lambda $控制，$ Q $与$ \Lambda $之间有无穷的组合，这些组合必须要与$ y_t $的波动$ R $配合起来。也即$ Q,\Lambda,R $这三个变量不能具备三个自由度，必须要确定其中一个，通常假设\[ Q = I_K \]
	 
	 有时也通过对$ \Lambda $施加约束，然后对$ Q $进行估计。
	 
	 \subsubsection{Maximum Likelihood}
	 原理：参数创造了潜因子，潜因子创造了观测值，我们的目的就是选择一个合适的参数，其最大化了观测值出现的概率。$ y_t $的条件分布是多元正态，
	 \[ y_t\sim N(\mu_{t|t-1},V_{t|t-1}) \]
	 
	 其中，
	 \begin{align*}
\mu_{t|t-1} &= \Lambda s_{t|t-1}\\
V_{t|t-1} &= \Lambda P_{t|t-1}\Lambda'+R
	 \end{align*}
	 
	 那么第$ t $个观测值的对数似然值可以写为，
	 \[ \ln l_t = -\frac{N}{2}\ln(2\pi)-\frac{1}{2}\ln |V_{t|t-1}|-\frac{1}{2}(y_t-\mu_{t|t-1})'V_{t|t-1}^{-1}(y_t-\mu_{t|t-1}) \]
	 
\subsubsection{Principal Components Estimator}	 
	 如果参数太多，极大似然估计会存在很大问题。Stock and Watson(2005)提出了一种迭代最小平方法。这种方法非常简单，堪称利器。对于一个经典的卡尔曼滤波模型，
	 \[ y_t = \Lambda s_t +  \]
	 算法如下：
	 \begin{itemize}
	 	\item 
	 \end{itemize}
	 
	 
	 
	\section{Mean in Nonlinearities}
	\subsection{Markov Switching Model}
	令$ w_t $是一个随机的权重变量如下，
	\[ w_t=\begin{cases}
	1 & : \text{Regime 1}\\
	0 & : \text{Regime 2}
	\end{cases} \]
	
	$ w_t $不可观测。模型可以设置如下，
	\begin{equation}\label{NM1}
	\begin{split}
	y_t &= \alpha + \beta w_t + u_t\\
	\sigma_t^2 &= \gamma + \delta w_t\\
	u_t &\sim N(0,\sigma_t^2)\\
	p &= P(w_t=1|w_{t-1}=1 ,y_{t-1},y_{t-2},\cdots)\\
	q &= P(w_t=0|w_{t-1}=0 ,y_{t-1},y_{t-2},\cdots)
	\end{split}
	\end{equation}
	
	该模型的待估参数为$ \theta = \{\alpha,\beta, \gamma,\delta,p,q\} $。如何进行估计？根据概率论，有$ y_t $的边缘密度为，
	\begin{align*}
	 f(y_t) & =P[w_t=1,y_t]+P[w_t=0,y_t] \\
	 & = P[w_t=1]f(y_t|w_t=1) + P[w_t=0]f(y_t|w_t=0)
	\end{align*}
	
	如果$ y_t $是由其过去的值所决定的，那模型可以进一步拓展表达为，
	\begin{equation}\label{NM2}
	 f(y_t|y_{t-1},y_{t-2},\cdots)=w_{1,t|t-1}f_{1,t|t-1}+w_{0,t|t-1} f_{0,t|t-1}
	\end{equation}
		
	其中，$ w_{i,t|t-1}=P[w_t=i|y_{t-1},\cdots],f_{i,t|t-1}=f(y_t|w_t=i,y_{t-1},\cdots) $。
	
	\textbf{\eqref{NM2}式是是一个权重（即$ w_t $）随着样本发生变化的混合分布的似然函数。专注于\eqref{NM2}式}，利用\eqref{NM1}式可以得到，
	\begin{equation}\label{NM3}
	\begin{split}
	f_{1,t|t-1} & = \frac{1}{\sqrt{2\pi(\gamma+\delta)}}\exp \left[-\frac{(y_t-\alpha-\beta)^2}{2(\gamma+\delta)}\right]\\
	f_{0,t|t-1} & = \frac{1}{\sqrt{2\pi\gamma}}\exp \left[-\frac{(y_t-\alpha)^2}{2\gamma}\right]	
	\end{split}
	\end{equation}
	
	得到$ w_{1,t|t-1},w_{0,t|t-1} $略显复杂些。一方面，依赖$ y_t $来得到同期的$ w_t $，即，\footnote{这里用到了贝叶斯公式。因为
		\[ P[w_t=1|y_t,y_{t-1},\cdots]= \frac{P[w_t=1,y_t|y_{t-1},\cdots]}{f(y_t|y_{t-1},\cdots)} \]
		
		如果忽略掉$ t-1 $条件，则利用\eqref{NM1}式（得到上式分子）和\eqref{NM2}式（得到上式分母）可以导出\eqref{NM4}式。}
	\begin{equation}\label{NM4}
	\begin{split}
	w_{1,t|t} & = P[w_t=1|y_t,y_{t-1},\cdots]=\frac{w_{1,t|t-1}f_{1,t|t-1}}{w_{1,t|t-1}f_{1,t|t-1}+w_{0,t|t-1}f_{0,t|t-1}}\\
		w_{0,t|t} & = P[w_t=0|y_t,y_{t-1},\cdots]=\frac{w_{0,t|t-1}f_{0,t|t-1}}{w_{1,t|t-1}f_{1,t|t-1}+w_{0,t|t-1}f_{0,t|t-1}}\\
	\end{split}
	\end{equation}
	另一方面，再利用\eqref{NM1}式，有，
	\begin{equation}\label{NM5}
	\begin{bmatrix}
	w_{1,t+1|t}\\w_{0,t+1|t}
	\end{bmatrix}=\begin{bmatrix}
	p & 1-q\\ 1-p & q
	\end{bmatrix}\begin{bmatrix}
	w_{1,t|t}\\w_{0,t|t}
	\end{bmatrix}
	\end{equation}	
	
	即基于$ t $期信息来推测$ t+1 $期信息，利用\eqref{NM1}式可以知道：$ t $期为1，$ t+1 $也为1的概率为$ p $，那么$ t $期为1，$ t+1 $为0的概率为$1- p $；类似地，$ t $期为0，$ t+1 $也为0的概率为$ q $,$ t $期为0，$ t+1 $为1的概率为$1-q $，那么得到\eqref{NM5}是显然的。
	
	那么给定$ T $个观测值，则有对数似然函数，
	\[ \ln L_T(\theta)=\frac{1}{T}\sum_{t=1}^{T}\ln f(y_t|y_{t-1},\cdots:\theta)=\frac{1}{T}\sum_{t=1}^{T}\ln (w_{1,t|t-1}f_{1,t|t-1}+w_{0,t|t-1}f_{0,t|t-1}) \]
	
	针对该似然函数，当$ t=1 $时，初值$ w_{1,1|0},w_{0,1|0} $为其各自稳态概率，
	\[ w_{1,1|0}=\frac{1-q}{1-p+1-q},\qquad w_{0,1|0}=\frac{1-p}{1-p+1-q} \]
	
